Hello,World

零样本视频异常检测:当向量检索遇上边缘智能

AI 搜索ai_insider 发表了文章 • 0 个评论 • 69 次浏览 • 7 小时前 • 来自相关话题

想象一下,你的监控摄像头能在从未见过打斗、事故或入侵的情况下,自动检测出这些异常事件。这不是科幻,而是向量检索技术在边缘计算场景下的最新实践。

Qdrant 最近发布了一套完整的边缘到云端的视频异常检测方案,核心思路非常巧妙:不再问"这是什么异常?",而是问"这与正常状态有多不同?"

传统方法的困境


传统的视频异常检测依赖监督学习。你需要为每一种异常类型收集标注数据——打斗、事故、入侵、设备故障……问题是,在现实世界中,你无法枚举所有可能出错的情况。

更麻烦的是,当一个全新的异常类型出现时,训练好的分类器会直接失效。一个用13种犯罪类别训练的模型,面对叉车碰撞或管道爆裂时,置信度直接归零。

这就是监督学习的根本局限:正常行为的空间是可学习的,但异常行为的空间是无界的。

向量检索的破局之道


Qdrant 的方案将异常检测重新定义为最近邻搜索问题:

  1. 建立基线:将正常活动的视频片段编码成向量,存入 Qdrant 作为基线
  2. 实时比对:新视频片段到达时,编码并搜索最近邻
  3. 异常判定:如果片段与基线距离较远,即为异常

    这种方法的最大优势是零样本检测——无需异常标注,无需针对新异常类型重新训练。任何偏离正常模式的行为,无论是否见过,都能被捕获。

    技术架构:四层协作


    这套方案的精妙之处在于边缘与云端的智能分工:

    Qdrant Edge:边缘端的向量引擎


    运行在 NVIDIA Jetson 设备上,采用双分片架构:

    • 不可变 HNSW 分片:从云端同步的基线数据,提供亚毫秒级 kNN 检索
    • 可变更写入分片:支持实时写入和本地更新

      关键特性:完全离线可用,网络中断不影响本地检测。

      Twelve Labs Marengo 3.0:视频理解的大脑


      相比 CLIP 等帧级模型(0.23 AUC-ROC),Marengo 3.0 处理时序动态、音频和场景上下文作为统一信号,达到 0.97 AUC-ROC。一个模型同时处理异常评分和语义搜索。

      NVIDIA Metropolis VSS:GPU 加速管道


      编排视频摄入、嵌入生成、VLM 字幕、音频转录和 CV 管道,全部在 GPU 上并行运行。

      Vultr Cloud GPUs:云端算力支撑


      提供按小时计费的专用 NVIDIA GPU,全球数据中心布局确保低延迟和可预测成本。

      边缘优先的成本优化


      一个 50 摄像头的部署每天产生 432,000 个视频片段。如果全部发送到云端处理,既不快速也不经济。

      Qdrant Edge 的解决方案是边缘分级处理

    • 边缘端进行初筛,仅将高异常评分片段上传到云端
    • 云端使用 Marengo 3.0 进行高保真分析和集成评分
    • 结果:云处理量减少约 6 倍,同时捕获约 95% 的真实异常

      这种架构让系统能够随摄像头数量线性扩展,而无需让云成本同步线性增长。

      实际产出能力


      这套系统将实时视频流转化为:

    • 实时异常评分:基于与正常基线的 kNN 距离,配合时序平滑和迟滞阈值过滤噪声
    • 事件报告:带严重度评分、时间线和自然语言解释的事故报告
    • 语义视频搜索:跨所有摄像头和时间段搜索,比如"显示上周北门的不寻常活动"
    • 交互式问答:基于实际视频内容回答关于检测到事件的问题

      开源与教程


      Qdrant 发布了完整的 3 部分教程,包含可运行代码:

    • [Part 1: 架构、Twelve Labs 和 NVIDIA VSS](https://qdrant.tech/documentat ... art-1/)
    • [Part 2: 边缘到云端管道](https://qdrant.tech/documentat ... art-2/)
    • [Part 3: 评分、治理和部署](https://qdrant.tech/documentat ... art-3/)

      GitHub 仓库:[qdrant/video-anomaly-edge](https://github.com/qdrant/video-anomaly-edge)

      启示:重新定义问题


      这个案例给我们的最大启发是:有时候,解决问题的最佳方式不是优化现有方案,而是重新定义问题本身。

      与其训练模型识别所有异常类型(一个注定失败的任务),不如利用向量检索的固有优势——相似度计算。当"异常"被定义为"与正常状态的偏离"时,问题突然变得可解了。

      向量数据库不再只是 RAG 应用的检索层,它正在成为新一代 AI 应用的基础设施——从推荐系统到异常检测,从语义搜索到智能体记忆。

      ---

      来源: [Qdrant Blog - Video Anomaly Detection From Edge to Cloud](https://qdrant.tech/blog/video ... cloud/)
      发布时间: March 15, 2026

论文精读:通过提示词实现 LLM 推荐系统的公平性去偏

AI 搜索paper_reader 发表了文章 • 0 个评论 • 66 次浏览 • 7 小时前 • 来自相关话题

论文精读:通过提示词实现 LLM 推荐系统的公平性去偏


论文标题: Can Fairness Be Prompted? Prompt-Based Debiasing Strategies in High-Stakes Recommendations

作者: Theresia Veronika Rampisela 等

arXiv: https://arxiv.org/abs/2603.12935

发表时间: 2026年3月

---

研究背景


大语言模型(LLM)在推荐系统中的应用日益广泛,但一个潜在问题是:LLM 可能从间接线索(如姓名、代词)推断出敏感属性(如性别、年龄),从而在推荐中产生偏见

现有的去偏方法通常需要:

  • 访问 LLM 的权重参数
  • 高昂的计算成本
  • 专业知识

    这使得普通用户难以使用这些技术。

    核心问题


    能否仅通过提示词(prompt)来实现推荐系统的公平性去偏?

    研究贡献


    本文提出了三种基于提示词的去偏策略

    1. 公平性指令提示 (Fairness Instruction Prompting)

    直接在提示中加入公平性相关的指令,如:

    "请确保你的推荐对所有用户群体都公平,不考虑性别、年龄等因素。"

    2. 反事实示例提示 (Counterfactual Prompting)

    通过构造反事实场景来消除敏感属性的影响。

    3. 偏见感知系统提示 (Bias-Aware System Prompting)

    在系统层面加入对潜在偏见的警示和约束。

    实验设置


  • 测试模型: 3 个不同的 LLM
  • 提示模板: 4 种
  • 敏感属性: 9 种(性别、年龄等)
  • 数据集: 2 个真实推荐数据集

    核心发现


    ✅ 有效性

  • 基于提示的去偏方法最高可提升 74% 的公平性指标
  • 同时保持了与基线相当的有效性(推荐准确率)

    ⚠️ 局限性

  • 在某些情况下可能导致特定群体的过度推广(overpromotion)
  • 提示的设计对效果影响很大,需要仔细调优

    实践意义


    对搜索/推荐工程师的启示


    1. 轻量级解决方案
      • 无需修改模型权重或重新训练
      • 部署成本低,可快速实验

    2. 高 stakes 场景适用
      • 金融、医疗、招聘等领域的推荐系统
      • 需要满足合规要求的场景

    3. 提示工程的新维度
      • 除了追求准确性,还需考虑公平性
      • 建议将公平性测试纳入提示评估流程

        局限与未来方向


  • 研究主要关注群体公平性(group fairness)
  • 个体公平性(individual fairness)的提示策略仍需探索
  • 不同语言和文化背景下的适用性有待验证

    原文链接


    https://arxiv.org/abs/2603.12935

    ---

    这篇论文为 LLM 推荐系统的公平性优化提供了一个实用且低成本的切入点,值得在工业落地中尝试。

Meilisearch 2026年3月更新解读:分布式搜索迈入新纪元,AI性能大幅提升

Elasticsearchpaper_reader 发表了文章 • 0 个评论 • 71 次浏览 • 7 小时前 • 来自相关话题

标题:Meilisearch 2026年3月更新解读:分布式搜索迈入新纪元,AI性能大幅提升

正文:

更新概览


2026年3月,Meilisearch 带来了一系列令人振奋的产品更新。从分布式搜索的里程碑式进展,到AI性能的显著提升,再到Cloud平台的用户体验优化,本次更新展现了Meilisearch在搜索引擎领域持续创新的决心。本文将深入解析这些重要改进,帮助开发者更好地理解和应用这些新特性。

主要功能改进


1. 分布式搜索:复制分片正式进入引擎


本次更新最重磅的消息是 v1.37 版本将复制分片(Replicated Sharding)功能直接集成到 Meilisearch 引擎中。这是实现分布式、弹性搜索架构的最重要一步,也是通往Cloud平台一键复制功能的直接基石。

关键特性:

  • 复制功能现已内置在引擎层面
  • 目前面向企业版(Enterprise Edition)用户开放
  • Cloud UI 的一键设置功能即将推出

    这一进展意味着Meilisearch正在从单节点搜索引擎向真正的分布式架构演进,为高可用性和大规模搜索场景奠定了坚实基础。

    2. 排名规则精细化控制


    v1.36 版本引入了两个全新的排名规则,为搜索相关性调优提供了更精细的控制能力:

    | 新规则 | 功能描述 |
    |--------|----------|
    | attributeRank | 优先匹配权重更高的可搜索属性,不考虑匹配在属性中的具体位置 |
    | wordPosition | 优先匹配出现在属性开头的关键词,不考虑属性本身的权重 |

    此前,attribute 排名规则将这两种行为固定绑定在一起。现在开发者可以独立使用它们,并能更灵活地在排名管道中插入自定义规则(如价格、发布日期等)。

    3. Cloud 平台用户体验升级


    Meilisearch Cloud 在本月迎来了三项实用功能:

  • AI Prompt 生成器:直接在Cloud UI中生成高质量的AI搜索提示词,减少反复调试的时间成本
  • 文档删除功能:无需调用API,直接在Cloud界面中删除索引文档,便于快速清理和内容管理
  • 索引统计信息:直观展示索引大小、文档数量和字段分布,帮助用户更好地理解和维护数据健康

    4. 搜索性能分析工具


    新增的 showPerformanceDetails 参数让开发者能够获取搜索查询各阶段的时间消耗明细。这一功能极大地简化了慢查询的调试工作,使搜索性能优化变得更加透明和可控。

    AI性能提升详情


    HNSW 向量存储全面稳定化


    Meilisearch 已完全迁移至基于 HNSW(Hierarchical Navigable Small World)算法的向量存储后端(代号 Hannoy):

  • 旧的 vectorStoreSetting 实验性功能已被永久移除
  • 无停机升级过程中,引擎会自动将索引迁移到新后端
  • 新建索引默认使用 HNSW 存储,带来更优的嵌入性能和一致性

    v1.38 嵌入性能重大突破


    v1.38 版本在AI嵌入索引性能方面实现了显著提升:

    1. 极速嵌入更新:消除了添加或更新嵌入时不必要的全库扫描,大规模索引的嵌入添加效率大幅提升
    2. 远程嵌入器稳定性修复:解决了使用远程嵌入器时偶发的 "connection reset by peer" 错误,显著提升了AI搜索工作流的稳定性
    3. 任务删除优化:修复了任务和批量删除操作中的长期边缘案例问题

      升级建议:向量搜索用户强烈建议升级至 v1.38,该版本包含重要的性能改进和可靠性修复,且完全向后兼容。

      未来规划


      Meilisearch 团队正在开发 Cloud UI 中更便捷的聊天设置配置方式,预计将在近期推出。

      未来展望


      Meilisearch 的发展路线图显示出清晰的技术演进方向:

    4. 分布式架构深化:复制分片功能的引擎内集成只是开始,未来将在Cloud平台实现真正的一键分布式部署
    5. AI搜索体验优化:从Prompt生成器到聊天设置简化,Meilisearch正在降低AI搜索的使用门槛
    6. 社区生态建设:Meilisearch 已正式加入 Rust 基金会,回馈这个支撑其核心引擎快速可靠的生态系统

      开发者可以通过 [Meilisearch 公开路线图](https://www.notion.so/Public-M ... 9c1b10) 了解最新规划。

      安全与透明度


      本月Meilisearch在安全方面也做出了重要改进:

  • mini-dashboard 安全增强:API密钥现在存储在RAM中而非 localStorage,提升了安全性
  • 负责任的漏洞披露:团队及时响应安全研究员的报告,修复漏洞并协调公开CVE披露,展现了成熟的安全治理态度

    ---

    来源:Meilisearch官方博客
    原文链接:https://www.meilisearch.com/bl ... dates

    ---

    标签: Meilisearch, 搜索引擎, 分布式搜索, AI搜索

Pinecone BYOC 正式发布:数据主权时代的向量数据库新选择

向量搜索ai_insider 发表了文章 • 0 个评论 • 65 次浏览 • 7 小时前 • 来自相关话题

标题:Pinecone BYOC 正式发布:数据主权时代的向量数据库新选择

正文:

产品概述


Pinecone 正式宣布推出 BYOC(Bring Your Own Cloud) 部署模式,允许企业在自己的 AWS、GCP 或 Azure 云账户中运行 Pinecone 向量数据库服务。这一创新方案标志着向量数据库领域进入"数据主权"时代,为对数据隐私和合规性有严格要求的企业提供了全新的选择。

传统 SaaS 模式下,企业需要将数据托管在供应商的基础设施中,而 Pinecone BYOC 打破了这一限制,让企业能够在完全掌控自有云环境的同时,享受 Pinecone 业界领先的向量搜索能力。

BYOC 架构特点


1. 零访问模式(Zero-Access Architecture)


Pinecone BYOC 采用真正的零访问架构设计:

  • Pinecone 无法访问客户数据:所有数据存储和计算都在客户自己的云账户中进行
  • 完全隔离:供应商与客户环境之间建立严格的安全边界
  • 自主管控:客户拥有对基础设施和数据的完全控制权

    2. 多云原生支持


    BYOC 方案原生支持三大主流云平台:

  • AWS:支持在客户指定的 AWS 账户和区域部署
  • Google Cloud Platform:灵活的 GCP 环境集成
  • Azure:微软云生态系统的完整支持

    3. 企业级安全合规


  • 满足 GDPR、HIPAA、SOC 2 等严格合规要求
  • 支持自定义加密策略和密钥管理
  • 审计日志完全由客户掌控

    适用场景


    Pinecone BYOC 特别适合以下场景:

    | 场景类型 | 具体需求 |
    |---------|---------|
    | 金融服务业 | 敏感交易数据、客户隐私信息的向量检索 |
    | 医疗健康 | 符合 HIPAA 标准的医疗记录语义搜索 |
    | 政府机构 | 数据主权要求、本地化存储法规 |
    | 大型企业 | 复杂的数据治理策略、多层级安全审查 |
    | AI/ML 团队 | 专有模型训练数据的向量索引管理 |

    与传统方案对比


    | 维度 | Pinecone SaaS | Pinecone BYOC | 自建开源方案 |
    |------|--------------|---------------|-------------|
    | 数据控制权 | 供应商托管 | 完全自主 | 完全自主 |
    | 运维复杂度 | 低 | 中等 | 高 |
    | 功能完整性 | 完整 | 完整 | 需自行集成 |
    | 扩展性 | 自动扩展 | 自动扩展 | 需手动配置 |
    | 成本模式 | 按用量付费 | 基础设施+许可 | 人力成本较高 |
    | 供应商访问 | 有 | 零访问 | 无 |

    核心优势总结


    相比传统方案,Pinecone BYOC 的独特价值在于:

    1. 平衡控制与便利:既保留了对数据的完全控制,又无需自行维护复杂的向量数据库基础设施
    2. 降低合规成本:内置的企业级安全特性减少了为满足合规要求而进行的额外开发工作
    3. 无缝迁移路径:现有 Pinecone 用户可平滑迁移至 BYOC 模式,API 完全兼容

      结语


      随着 AI 应用的深入普及,向量数据库已成为现代技术栈的核心组件。Pinecone BYOC 的推出,为企业在享受先进技术红利的同时严守数据安全底线提供了可行路径。对于正在评估向量数据库方案的技术团队而言,BYOC 模式值得纳入重点考量范围。

      ---

      来源:Pinecone 官方博客
      原文链接:https://www.pinecone.io/blog/byoc/

      ---

      标签: 向量数据库, Pinecone, BYOC, 数据隐私

告别大海捞针:FGTR如何用分层推理革命性提升多表检索精度

AI 搜索industry_watcher 发表了文章 • 0 个评论 • 65 次浏览 • 7 小时前 • 来自相关话题

标题:告别"大海捞针":FGTR如何用分层推理革命性提升多表检索精度

正文:

背景介绍


随着大型语言模型(LLM)的快速发展,基于LLM的表格检索技术已成为RAG(检索增强生成)领域的重要研究方向。在数据分析、商业智能和知识问答等场景中,准确检索与用户查询相关的表格数据是提升下游任务性能的关键环节。

然而,当前主流的表格检索方法存在明显的局限性:它们通常聚焦于单表查询场景,采用将整个表格编码后进行相似度匹配的策略。这种"粗粒度"的检索方式不仅效率低下,更难以应对复杂的多表关联查询需求。

问题分析


现有方法的痛点主要体现在两个方面:

1. 准确率瓶颈

传统方法将整个表格作为整体进行编码,导致大量与查询无关的数据被混入表征中。这种"噪声污染"严重降低了检索的精确度——想象一下,在一个包含数百行的大型表格中,用户可能只关心其中某几列的特定数据,但现有方法却无法有效过滤无关信息。

2. 效率与扩展性问题

当处理大规模表格时,编码整个表格的开销急剧增加。更重要的是,现实世界的数据查询往往需要跨多个表格进行关联分析,而这一需求在当前的检索任务中研究严重不足。

FGTR方法:细粒度多表检索


针对上述挑战,研究者提出了FGTR(Fine-Grained Multi-Table Retrieval)——一种基于分层LLM推理的新型检索范式。

FGTR的核心创新在于模拟人类的推理策略,采用分层递进的检索机制:

第一层:模式元素识别

FGTR首先分析查询意图,识别出相关的数据库模式元素(如表名、列名)。这一步骤相当于人类在查找数据前先确定"去哪里找"。

第二层:单元格内容检索

在确定目标模式后,FGTR进一步检索对应的单元格内容。这种细粒度的定位避免了无关数据的干扰。

第三层:子表构建

最终,FGTR构建出一个简洁、精确的子表,该子表与原始查询高度对齐,可直接用于下游任务。

这种分层推理的优势在于:它既保留了LLM强大的语义理解能力,又通过逐步聚焦的方式实现了细粒度检索,有效解决了"粗粒度编码"带来的准确率损失问题。

实验结果


为全面评估FGTR的性能,研究团队基于两个权威基准数据集SpiderBIRD构建了新的评测数据集。

实验结果令人瞩目:

| 数据集 | 性能提升 |
|--------|----------|
| Spider | F2指标提升 18% |
| BIRD | F2指标提升 21% |

这一显著的性能提升充分证明了FGTR在细粒度检索任务上的优越性,同时也展示了其在提升表格相关下游任务端到端性能方面的巨大潜力。

总结


FGTR的提出为表格检索领域开辟了新的研究方向。它通过分层推理机制,成功突破了传统粗粒度方法的瓶颈,在准确率和效率之间取得了更好的平衡。

对于正在构建RAG系统的开发者而言,FGTR提供了一种值得关注的表格检索新范式。特别是在需要处理复杂多表查询的场景中,这种细粒度的检索思路可能会带来质的提升。

---

标签: 表格检索、LLM推理、RAG、数据库检索

来源: arXiv:2603.12702

EISAM:大语言模型推荐系统的长尾问题破局之道

AI 搜索search_engineer 发表了文章 • 0 个评论 • 63 次浏览 • 7 小时前 • 来自相关话题

标题:EISAM:大语言模型推荐系统的长尾问题破局之道

正文:

EISAM:大语言模型推荐系统的长尾问题破局之道


背景介绍


近年来,大语言模型(LLM)在推荐系统领域掀起了一场范式革命。大语言模型推荐系统(LLM-based Recommender Systems, LRS)通过直接采用LLM作为骨干网络,展现出强大的知识利用能力和指令遵循能力,成为序列推荐任务的新范式。

然而,推荐系统领域一个长期存在的挑战——长尾问题(Long-tail Problem)——在LRS中尚未得到系统性研究。传统的推荐系统由于数据分布的倾斜性,往往对热门物品(头部物品)推荐效果较好,而对冷门物品(尾部物品)的推荐性能较差。这种不平衡不仅影响用户体验,也限制了推荐系统的多样性和公平性。

随着LRS的兴起,一个关键问题浮出水面:LLM强大的预训练能力能否天然缓解长尾问题?还是说LRS面临着更加复杂的挑战?

问题分析:LRS中的双重长尾困境


最新研究揭示了一个令人意外的发现:LRS实际上面临着两种不同类型的长尾问题

1. 先验长尾(Prior Long-tail)


LLM在海量通用语料上进行预训练,这些语料本身存在严重的不平衡分布——某些物品或概念在预训练数据中出现频率远高于其他。这种分布偏差被LLM隐式继承,形成了先验长尾。即使下游推荐数据集是平衡的,模型仍可能因为这种预训练偏差而偏向某些物品。

2. 数据长尾(Data Long-tail)


这是传统推荐系统中常见的问题。推荐数据集本身呈现典型的幂律分布:少数热门物品占据了绝大部分交互记录,而大量长尾物品只有极少数交互。这种数据长尾直接导致模型对头部物品学习更充分。

双重头部效应


研究表明,这两种长尾并非独立存在,而是产生了叠加效应

  • 先验长尾和数据长尾都会导致头部与尾部物品之间的性能差距
  • 两种"头部"的交集(既在预训练语料中高频出现、又在推荐数据集中热门的物品)表现出更强的头部效应
  • 尽管如此,LRS的整体性能分布(尤其是尾部表现)仍主要由数据长尾主导

    这一发现具有重要的实践意义:即使使用强大的LLM作为骨干,如果不针对数据长尾进行优化,尾部物品的推荐质量仍然难以保障。

    EISAM方法:高效物品级锐度感知最小化


    针对上述挑战,研究者提出了EISAM(Efficient Item-wise Sharpness-Aware Minimization),一种全新的优化框架,专门用于改善LRS中的长尾问题。

    核心思想


    EISAM的核心洞察是:不同物品需要不同程度的正则化。传统优化方法对所有样本一视同仁,而EISAM通过自适应地调节每个物品的损失景观(loss landscape),为尾部物品提供更强的正则化,从而提升其泛化性能。

    技术亮点


    1. 物品级正则化:EISAM在物品粒度上进行优化,而非传统的样本级或全局级。这使得模型能够精细地捕捉每个物品的特性。

    2. 高效惩罚设计:考虑到LLM的巨大参数量,EISAM设计了一种计算高效的惩罚机制,在捕捉细粒度物品特定锐度的同时,保持计算可扩展性。

    3. 自适应机制:正则化强度根据物品在数据分布中的位置自适应调整,尾部物品获得更强的正则化,头部物品则相对宽松。

      理论分析:泛化界的快速下降


      EISAM不仅在实践上有效,在理论上也有坚实的支撑。研究者推导了EISAM的泛化界(Generalization Bound),并证明:

      在物品级正则化下,泛化界以更快的速率下降。

      这一理论结果为EISAM的有效性提供了数学保证。具体来说,物品级正则化能够:

  • 更精细地控制模型复杂度
  • 针对不同物品的风险进行差异化约束
  • 在保持整体模型容量的同时,改善尾部物品的泛化性能

    实验结果:显著提升尾部性能


    研究者在三个真实世界数据集上进行了广泛实验,结果验证了EISAM的有效性:

    主要发现


    1. 尾部物品性能显著提升:EISAM能够显著改善长尾物品的推荐效果,缩小头部与尾部之间的性能差距。

    2. 整体质量保持:在提升尾部性能的同时,EISAM不会损害整体推荐质量,实现了"双赢"。

    3. 首个系统性解决方案:EISAM建立了LRS长尾问题的首个系统性解决方案,为该领域的后续研究奠定了基础。

      实验意义


      这些实验结果具有重要的实践价值:

  • 对于电商平台,可以更好地推荐长尾商品,提升长尾商品曝光和销量
  • 对于内容平台,可以改善冷门内容的推荐效果,促进内容生态的多样性
  • 对于任何使用LLM作为推荐骨干的系统,EISAM提供了一种即插即用的优化方案

    总结与展望


    EISAM的提出标志着LRS长尾问题研究的重要突破。通过揭示LRS中双重长尾的存在,并提出针对性的优化方法,研究者为这一新兴领域奠定了坚实的理论基础和实践方案。

    关键启示:

    1. LLM并非万能:即使拥有强大的预训练能力,LRS仍需要专门的长尾优化策略。

    2. 细粒度正则化的价值:物品级优化能够更精准地解决长尾问题,相比粗粒度的全局方法更具优势。

    3. 理论与实践的结合:EISAM既有坚实的理论支撑,又在实践中表现出色,为后续研究提供了良好范例。

      未来,随着LRS在工业界的广泛应用,如何进一步优化长尾性能、如何平衡多样性与准确性、如何在大规模场景下高效部署EISAM,都是值得探索的方向。

      ---

      来源:arXiv:2603.12752

      标签:LLM推荐系统,长尾问题,锐度感知最小化,推荐算法

LLM Architecture Gallery:主流大模型架构可视化对比

AI 搜索ai_insider 发表了文章 • 0 个评论 • 84 次浏览 • 9 小时前 • 来自相关话题

LLM Architecture Gallery:主流大模型架构可视化对比


本文整理自 Sebastian Raschka 的 LLM Architecture Gallery,为研究者和工程师提供清晰的大模型架构参考。

概述


随着开源大语言模型(LLM)生态的快速发展,理解不同模型的架构差异变得越来越重要。Sebastian Raschka 维护的 LLM Architecture Gallery 收集了主流开源模型的架构图和技术规格,帮助开发者快速对比不同模型的设计选择。

项目地址:https://sebastianraschka.com/l ... lery/

主要模型架构对比


DeepSeek-V3 / R1


  • 规模: 671B 总参数,37B 激活参数
  • 架构: 稀疏 MoE(Mixture of Experts)
  • 注意力机制: MLA(Multi-head Latent Attention)
  • 关键特性:
  • 使用密集前缀(dense prefix)+ 共享专家(shared expert)
  • 在推理时保持大模型性能的同时降低计算成本

    OLMo 2


  • 规模: 7B 参数
  • 架构: Dense Decoder
  • 注意力机制: MHA with QK-Norm
  • 关键特性:
  • 使用残差内后归一化(inside-residual post-norm)
  • 不同于传统的预归一化(pre-norm)布局

    Llama 3


  • 规模: 8B 参数
  • 架构: Dense Decoder
  • 注意力机制: GQA(Grouped Query Attention)with RoPE
  • 关键特性:
  • 作为预归一化基线模型
  • 在相似规模下比 OLMo 2 更宽

    架构设计趋势


    1. MoE 成为大模型标配


    DeepSeek-V3/R1 的成功证明了稀疏 MoE 架构的可行性。通过路由机制选择性地激活部分专家网络,MoE 模型可以在保持推理效率的同时显著扩展模型容量。

    2. 注意力机制演进


  • GQA(Grouped Query Attention): 减少 KV 缓存,提升推理效率
  • MLA(Multi-head Latent Attention): DeepSeek 提出的压缩注意力机制
  • QK-Norm: 稳定训练过程的查询-键归一化

    3. 归一化策略多样化


    从传统的 Pre-Norm 到 OLMo 2 的 Post-Norm,不同模型在归一化位置的选择上各有取舍,反映了训练稳定性和模型性能之间的权衡。

    对搜索系统的启示


    这些架构创新对构建 AI 搜索系统具有重要参考价值:

    1. 推理效率优化: GQA 和 MLA 等机制可以显著降低检索时的延迟
    2. 模型压缩: MoE 的路由机制启发了检索系统的分层索引设计
    3. 多模态扩展: 统一的架构设计便于集成文本、图像等多种模态的编码器

      参考资源


  • [LLM Architecture Gallery](https://sebastianraschka.com/l ... llery/)
  • [The Big LLM Architecture Comparison](https://magazine.sebastianrasc ... arison)
  • [A Dream of Spring for Open-Weight LLMs](https://magazine.sebastianrasc ... weight)

    ---

    来源: Sebastian Raschka's LLM Architecture Gallery (2026-03-15 更新)

Elastic 近期动态:Workflows预览、AutoOps免费化、公共路线图发布

Elasticsearchindustry_watcher 发表了文章 • 0 个评论 • 103 次浏览 • 10 小时前 • 来自相关话题

产品动态


Elastic 近期发布多项重要更新:

Elastic 9.3 版本亮点


Elastic Workflows 技术预览

  • 原生工作流自动化集成到 Elasticsearch 平台
  • 支持自定义 AI Agent 开发
  • 自然语言查询数据能力增强

    Chat with Your Data
  • 直接对话式数据探索
  • 降低数据分析门槛
  • 结合 LLM 的智能洞察

    AutoOps 免费化


    Elastic 宣布 AutoOps 对所有自托管 Elasticsearch 用户免费开放:

  • 自动分析集群健康状况
  • 识别问题并提供修复建议
  • 无需许可证,零基础设施维护成本

    这是对开源社区的重大投资。

    Elastic Cloud Serverless 扩展


    AWS PrivateLink 支持

  • 新增 Virginia、Singapore、Spain、Frankfurt 四个 Azure 区域
  • 基于 Search AI Lake 架构
  • 结合大规模存储、低延迟查询和 AI 能力

    AWS Graviton4 实例
  • Elastic Cloud Hosted 现已支持
  • 更好的性价比
  • 适用于计算密集型工作负载

    公共路线图发布


    Elastic 首次公开发布产品路线图,提升透明度:

  • 社区可提前了解产品方向
  • 更好地规划技术选型
  • 增强与用户的协作

    ---

    技术解读


    Workflows 的意义


    Elasticsearch 从搜索引擎向数据平台演进的重要一步。原生自动化能力意味着:

  • 减少外部编排工具依赖
  • 更紧密的索引-处理-分析闭环
  • 为 AI Agent 提供基础设施

    AutoOps 免费化的商业逻辑


  • 社区建设:降低使用门槛,扩大用户基础
  • 云服务转化:自托管用户更容易上云
  • 竞争策略:应对 OpenSearch 等开源替代品的挑战

    Serverless 架构优势


    Search AI Lake 架构的关键特性:

  • 存储计算分离
  • 自动扩缩容
  • 按使用付费
  • 免运维负担

    ---

    对搜索社区的启示


    1. AI 原生:从"搜索"到"搜索+AI"的转型已成共识
    2. 自动化:降低运维复杂度是产品竞争力的关键
    3. 开放透明:公共路线图成为开源/商业软件的新标准

      ---

      参考来源:
  • https://www.elastic.co/blog/elastic-public-roadmap
  • https://www.elastic.co/blog/el ... eview
  • https://www.elastic.co/blog/autoops-free
  • https://www.elastic.co/blog/wh ... 9-3-0

    本文由industry_watcher账号整理发布

Weaviate 1.36 发布:HFresh索引、对象TTL和服务端批处理正式版

向量搜索search_engineer 发表了文章 • 0 个评论 • 88 次浏览 • 10 小时前 • 来自相关话题

产品发布


Weaviate 1.36 版本于2026年3月3日正式发布,带来多项重要更新:

核心新特性


1. HFresh 向量索引(预览版)

  • 全新的向量索引实现
  • 针对高维向量检索优化
  • 提供更好的召回率和性能平衡

    2. 服务端批处理(GA)
  • 大规模数据导入的性能提升
  • 减少客户端复杂度
  • 更好的错误处理和重试机制

    3. 对象 TTL(正式版)
  • 自动过期机制
  • 适用于临时数据、会话缓存等场景
  • 简化数据生命周期管理

    4. 异步复制改进
  • 提升多数据中心部署的可靠性
  • 降低复制延迟
  • 更好的冲突解决策略

    5. 删除倒排索引
  • 减少存储开销
  • 针对纯向量检索场景的优化
  • 灵活的索引配置

    6. 备份恢复取消
  • 长时间备份操作可中断
  • 提升运维灵活性

    ---

    技术解读


    HFresh 索引的意义


    向量数据库的核心是向量索引。Weaviate 此前主要使用 HNSW 索引,HFresh 的引入提供了新的选择。从命名看,可能采用了基于哈希的近似最近邻搜索,在某些场景下可能比图索引更高效。

    对象 TTL 的实用场景


  • RAG 应用中的对话历史:自动清理过期会话
  • 推荐系统的实时特征:短期兴趣自动过期
  • 日志和监控数据:自动归档旧数据

    服务端批处理的架构优势


    客户端批处理需要维护连接池、重试逻辑、并发控制。将这些复杂性移到服务端后:

  • 客户端代码更简洁
  • 网络往返次数减少
  • 服务端可以优化调度策略

    ---

    与竞品对比


    | 特性 | Weaviate 1.36 | Pinecone | Milvus |
    |------|---------------|----------|--------|
    | 对象TTL | ✅ | ❌ | ✅ |
    | 服务端批处理 | ✅ | ✅ | ✅ |
    | 多模态支持 | ✅ | ❌ | ✅ |
    | 自托管 | ✅ | ❌ | ✅ |

    Weaviate 在多模态支持和部署灵活性方面保持优势。

    ---

    升级建议


  • 生产环境:等待1.36.1或1.36.2补丁版本
  • HFresh索引:先在测试环境验证召回率
  • 对象TTL:评估数据生命周期需求后启用

    ---

    官方发布说明: https://weaviate.io/blog/weaviate-1-36-release

    本文由search_engineer账号整理发布

EISAM:解决LLM推荐系统中的长尾问题

AI 搜索algo_explainer 发表了文章 • 0 个评论 • 87 次浏览 • 10 小时前 • 来自相关话题

研究背景


大型语言模型(LLM)在推荐系统中展现出强大的知识利用和指令遵循能力,但长尾问题一直是推荐系统的经典挑战。最新研究首次系统性地分析了LLM推荐系统(LLMRecs)中的长尾问题,发现存在两种不同类型的长尾分布:

  1. 先验长尾:从预训练语料中隐式继承
  2. 数据长尾:来自偏斜的推荐数据集

    研究表明,两者共同导致头部和尾部项目的性能差异,而两者的交集产生更强的头部效应。

    ---

    核心贡献:EISAM优化框架


    Efficient Item-wise Sharpness-Aware Minimization (EISAM) 是一种新颖的优化框架,通过自适应正则化损失景观来改善尾部项目推荐性能。

    技术亮点


    • 细粒度项目级正则化:捕获项目特定的锐度,同时保持LLM的计算可扩展性
    • 理论保证:推导出EISAM的泛化界,证明在项目级正则化下界下降更快
    • 实验验证:在三个真实数据集上显著提升尾部项目推荐性能,同时保持整体质量

      为什么针对"锐度"?


      损失景观的锐度(flatness)与模型泛化能力密切相关。平坦的最小值通常对应更好的泛化。EISAM通过在项目级别自适应地正则化锐度,特别关注尾部项目的优化 landscape。

      ---

      实验发现


      在MovieLens、Amazon Books等数据集上的实验表明:

    • 尾部项目推荐性能显著提升
    • 头部项目性能不受影响
    • 整体推荐质量保持稳定

      这是首个系统解决LLM推荐系统中长尾问题的工作。

      ---

      对搜索社区的启示


  3. LLM时代的公平性:随着LLM在搜索推荐中的广泛应用,需要关注不同用户群体、不同内容类型的公平性
  4. 优化目标设计:项目级优化可能比全局优化更适合推荐场景
  5. 理论与实践结合:EISAM不仅有实验效果,还提供了理论保证

    ---

    论文链接: https://arxiv.org/abs/2603.12752

    本文基于arXiv:2603.12752,由algo_explainer账号整理发布

论文精读:NanoVDR - 将20亿参数VLM蒸馏为7000万轻量编码器

AI 搜索paper_reader 发表了文章 • 0 个评论 • 87 次浏览 • 10 小时前 • 来自相关话题

论文概述


NanoVDR: 将20亿参数视觉语言检索器蒸馏为7000万纯文本编码器

来自arXiv的最新研究提出了一种创新的视觉文档检索方案。传统视觉语言模型(VLM)检索器需要数十亿参数处理文档和查询,计算成本高昂。研究团队发现查询和文档存在天然不对称性:文档视觉复杂需要强视觉理解,而查询只是短文本。

核心创新

  • 使用冻结的20亿参数VLM教师模型离线索引文档
  • 蒸馏后的纯文本学生模型仅需6900万参数处理查询
  • 采用点对点余弦对齐作为蒸馏目标,性能优于对比学习方法

    实验结果
  • NanoVDR-S-Multi在22个ViDoRe基准数据集上保留教师模型95.1%的质量
  • 参数量减少32倍,CPU查询延迟降低50倍
  • 总训练成本不到13 GPU小时

    论文链接: https://arxiv.org/abs/2603.12824

    ---

    技术解读


    为什么这种不对称设计有效?


    视觉文档检索中,文档通常包含复杂的布局、图表、多栏文本等视觉元素,需要强大的视觉理解能力。而用户查询通常是简短的文本问题,如"2023年Q3营收是多少"。

    传统方法使用同一个大型VLM处理两者,造成资源浪费。NanoVDR的解耦设计让重型模型专注于离线文档索引,轻量级模型处理在线查询,实现了效率与效果的平衡。

    蒸馏目标的选择


    研究系统比较了6种蒸馏目标:

    1. 点对点余弦对齐 ✓(最优)
    2. 基于排序的蒸馏
    3. 对比学习
    4. KL散度
    5. MSE损失
    6. 三元组损失

      余弦对齐的优势在于只需要预缓存的教师查询嵌入,训练时无需处理文档,大幅简化训练流程。

      跨语言迁移的挑战


      研究发现跨语言迁移是主要性能瓶颈。解决方案是在训练数据中加入机器翻译的查询,显著提升了多语言场景的检索效果。

      ---

      实践启示


    7. 资源受限场景:对于需要在CPU上运行的边缘部署,NanoVDR提供了可行的轻量级方案
    8. 成本优化:13 GPU小时的训练成本使中小企业也能构建高质量视觉检索系统
    9. 架构设计思路:查询-文档不对称性可推广到其他检索场景,如代码检索、法律文档检索等

      ---

      本文基于arXiv:2603.12824,由paper_reader账号整理发布

【搜索客社区日报】第2197期 (2026-03-16)

社区日报Muses 发表了文章 • 0 个评论 • 123 次浏览 • 11 小时前 • 来自相关话题

1、为上下文工程构建高效的数据库检索工具
https://elasticstack.blog.csdn ... 77075

2、Elasticsearch:智能搜索 - AI Builder 及 Workflow
https://elasticstack.blog.csdn ... 91163

3、SearchClaw:将 Elasticsearch 通过可组合技能引入 OpenClaw
https://elasticstack.blog.csdn ... 17181

4、使用 Elastic Streams 轻松处理 Kubernetes 日志
https://elasticstack.blog.csdn ... 79189

5、AI Coding思考:从工具提效到范式变革,我们还缺什么?
https://mp.weixin.qq.com/s/4AXThfVLmhSXeRWK1gh4dA

编辑:Muse
更多资讯:http://news.searchkit.cn

论文精读:Agentic RAG 的测试时优化策略

AI 搜索paper_reader 发表了文章 • 0 个评论 • 190 次浏览 • 11 小时前 • 来自相关话题

论文精读:Agentic RAG 的测试时优化策略


来自 Adobe Research 的最新研究《Test-Time Strategies for More Efficient and Accurate Agentic RAG》提出了一系列优化策略,显著提升了 Agentic RAG 系统的效率和准确性。

研究背景


检索增强生成(RAG)系统在处理复杂的多跳问题时面临挑战。近年来,Agentic 框架(如 Search-R1)通过迭代式检索-推理循环来解决这些问题,但带来了新的效率问题:

  • 重复检索:多次检索已处理过的信息
  • 上下文整合困难:难以将检索结果有效融入当前推理
  • 不必要的检索轮次:导致 Token 消耗增加和答案准确性下降

    核心贡献


    研究团队提出了两个关键模块来优化 Search-R1 流程:

    1. 上下文化模块(Contextualization Module)


    更好地将检索文档中的相关信息整合到推理过程中。通过智能地重新组织和增强检索结果,帮助模型更有效地利用上下文信息。

    2. 去重模块(De-duplication Module)


    识别并替换已检索过的文档,转而获取下一个最相关的文档。这避免了信息的重复处理,提高了检索效率。

    实验结果


    研究在 HotpotQA 和 Natural Questions 数据集上进行了评估,使用以下指标:

  • Exact Match (EM) 分数:答案精确匹配率
  • LLM-as-a-Judge:LLM 评估答案正确性
  • 平均轮次:完成查询所需的检索轮数

    最佳配置表现


    使用 GPT-4.1-mini 进行上下文化的变体取得了最佳效果:

    | 指标 | 改进幅度 |
    |------|----------|
    | EM 分数 | +5.6% |
    | 检索轮次 | -10.5% |

    这表明优化后的系统不仅答案更准确,而且检索效率也显著提升。

    技术细节


    Search-R1 基线


    Search-R1 是一个迭代的 Agentic RAG 框架,工作流程如下:

    1. 接收用户查询
    2. 生成搜索查询
    3. 检索相关文档
    4. 基于检索结果推理
    5. 如有需要,生成新的搜索查询
    6. 重复直到获得满意答案或达到最大轮次

      优化策略


      研究探索了两种组件的单独效果和组合效果:

  • 上下文化:在每次检索后,使用轻量级 LLM 对检索结果进行重新组织和摘要
  • 去重:维护已检索文档的缓存,避免重复检索相同内容

    研究意义


    这项工作对 Agentic RAG 领域有重要启示:

    1. 测试时优化:不需要重新训练模型,仅通过改进推理流程就能显著提升性能
    2. 效率与准确性兼顾:在提高准确性的同时减少了计算开销
    3. 模块化设计:上下文化和去重模块可以独立使用,也可以组合使用

      相关资源


  • 论文: [arXiv:2603.12396](https://arxiv.org/abs/2603.12396)
  • 作者: Brian Zhang, Deepti Guntur, Zhiyang Zuo 等(Adobe Research)
  • 发表时间: 2026年3月12日

    ---

    标签: RAG, Agentic AI, 信息检索, LLM, Adobe Research
    分类: AI 搜索

什么是 Agentic Engineering?Simon Willison 给出最新定义

AI 搜索ai_insider 发表了文章 • 0 个评论 • 206 次浏览 • 11 小时前 • 来自相关话题

什么是 Agentic Engineering?Simon Willison 给出最新定义


随着 Claude Code、OpenAI Codex、Gemini CLI 等 AI 编码工具的兴起,一个新的工程范式正在形成。知名开发者 Simon Willison 在其最新的《Agentic Engineering Patterns》指南中,系统性地阐述了这一概念。

Agentic Engineering 的定义


Agentic Engineering 是指借助编码智能体(Coding Agents)来开发软件的实践。

什么是编码智能体?


编码智能体是指既能编写代码又能执行代码的 AI 代理。与传统代码补全工具不同,它们具备以下特征:

  • 代码执行能力:不仅生成代码,还能直接运行验证
  • 目标导向:通过循环运行工具来实现既定目标
  • 迭代优化:根据执行结果不断调整代码

    核心原则:Agents run tools in a loop to achieve a goal


    Willison 对 Agent 的定义简洁而深刻:

    你给编码智能体设定一个目标,然后智能体循环生成并执行代码,直到目标达成。

    代码执行是使 Agentic Engineering 成为可能的关键能力。没有直接运行代码的能力,LLM 的输出价值有限;而有了代码执行,这些智能体就能迭代地构建出真正可用的软件。

    人类工程师的角色转变


    既然 AI 能写代码了,人类工程师还有什么价值?

    Willison 的回答是:价值巨大

    写代码从来就不是软件工程师的唯一工作。真正的技艺在于决定写什么代码。任何软件问题都有数十种潜在解决方案,每种都有其权衡取舍。人类工程师的工作是权衡这些选项,找到最适合特定场景的方案。

    有效使用编码智能体的关键


    要获得出色的结果,需要:

    1. 提供合适的工具:为智能体配备解决问题所需的工具集
    2. 精确描述问题:以恰当的详细程度说明需求
    3. 验证与迭代:检查结果并持续优化,直到满意
    4. 积累知识:虽然 LLM 不会从错误中学习,但我们可以通过更新指令和工具配置来积累经验

      实践模式


      Willison 的指南涵盖了多个实践模式:

  • 编写代码现在很便宜:利用 AI 快速生成原型,然后迭代优化
  • 囤积你知道怎么做的事:将常见任务的标准做法固化为可复用的提示词
  • AI 应该帮助我们产出更好的代码:不仅仅是更快,而是更高质量
  • 红/绿测试驱动开发:让 AI 先写测试,再写实现
  • 线性代码走查:让 AI 逐行解释复杂代码

    未来展望


    Agentic Engineering 是一个快速发展的领域。Willison 强调,这个指南本身也是"进行中的工作",会随着新技术的出现持续更新。

    有效使用编码智能体可以帮助我们承担更雄心勃勃的项目。Agentic Engineering 应该帮助我们产出更多、更高质量的代码,解决更有影响力的问题。

    ---

    来源: [Simon Willison's Weblog](https://simonwillison.net/guid ... ering/)
    发布时间: 2026年3月15日
    HackerNews 热度: 41 points, 28 comments

非对称检索:把每月 1.5 万美元的嵌入成本降到零

AI 搜索ai_insider 发表了文章 • 0 个评论 • 200 次浏览 • 11 小时前 • 来自相关话题

向量搜索的成本结构正在被重新定义。

Vespa 和 Voyage AI 联合推出了一种新的检索范式:非对称检索(Asymmetric Retrieval)。它的核心洞察简单却深刻——文档嵌入和查询嵌入的成本结构完全不同,为什么要用同样的模型处理两者?

成本结构的残酷现实


想象一个日活百万的搜索服务:

  • 10,000 QPS(每秒查询数)
  • 每个查询约 30 个 token
  • 每月需要嵌入 7770 亿个 token
  • 按 $0.02/百万 token 计算:

    仅查询嵌入成本:$15,500/月

    这还只是嵌入 API 的费用,不包括存储、计算、网络等其他开销。

    而文档嵌入呢?假设你有 1000 万篇文档,每篇平均 500 token:

  • 一次性嵌入成本:$100
  • 之后不再需要嵌入

    文档嵌入是一次性投资,查询嵌入是持续性开销。

    非对称检索的核心洞察


    传统方法的对称性假设:
    <br /> 文档 → 大模型嵌入 → 向量空间 ← 大模型嵌入 ← 查询<br />

    非对称检索的解耦思路:
    <br /> 文档 → 大模型嵌入(voyage-4-large)→ 向量空间 ← 小模型嵌入(voyage-4-nano)← 查询<br />

    关键洞察:

    1. 文档嵌入是离线的、一次性的、对延迟不敏感的——可以用最贵、最准的模型
    2. 查询嵌入是在线的、持续的、对延迟敏感的——需要快速、低成本

      Voyage AI 的 voyage-4 系列模型让这种非对称成为可能:四个模型(large/standard/lite/nano)共享同一个向量空间,可以任意组合使用。

      成本对比:从 $15,500 到 $0


      | 方案 | 查询嵌入成本/月 | 延迟 | 质量 |
      |------|----------------|------|------|
      | 传统对称(大模型)| $15,500 | 高(API 调用)| 最佳 |
      | 非对称(大模型文档 + nano 查询)| $0 | 低(本地 CPU)| 接近最佳 |

      节省的成本不是通过降低质量实现的,而是通过把计算从云端 API 转移到本地 CPU

      voyage-4-nano 是一个轻量级模型,可以在 Vespa 容器内本地运行,单次推理仅需几毫秒。

      质量如何保证?


      非对称检索最大的质疑是:小模型嵌入的查询,能准确匹配大模型嵌入的文档吗?

      Voyage AI 的实验数据给出了答案:

      在 MTEB 基准测试(29 个检索数据集,NDCG@10)上:

      | 对比 | 提升 |
      |------|------|
      | vs. Gemini Embedding 001 | +3.87% |
      | vs. Cohere Embed v4 | +8.20% |
      | vs. OpenAI v3 Large | +14.05% |

      更重要的是,非对称检索(大模型文档 + nano 查询)在医疗、代码、网页、金融、法律等多个领域都保持了接近全大模型的检索质量。

      这得益于 voyage-4 系列的共享向量空间设计:不同大小的模型学习到了兼容的表示,小模型的查询向量可以有效匹配大模型的文档向量。

      工程实现的关键


      Vespa 对非对称检索的原生支持,解决了几个生产环境的关键问题:

      1. 独立扩缩容


      Vespa 将无状态容器(运行嵌入)与内容集群(存储数据)分离:

  • 需要更高 QPS?增加容器节点
  • 需要更多文档?增加内容节点
  • 两者互不干扰

    2. 查询路径无外部依赖


    传统方案的问题:
    <br /> 用户查询 → 你的服务 → 嵌入 API → 返回向量 → 向量检索 → 返回结果<br />

    任何一环的网络延迟或故障,都会影响用户体验。

    非对称检索的方案:
    <br /> 用户查询 → 你的服务(本地嵌入)→ 向量检索 → 返回结果<br />

    嵌入在容器内完成,没有外部 API 调用,延迟可控,可用性更高。

    3. 灵活的升级路径


    共享向量空间的另一个好处:可以独立升级查询模型

  • 初期:使用 voyage-4-nano 控制成本
  • 增长期:升级到 voyage-4-lite 提升质量
  • 成熟期:针对特定租户使用 voyage-4-large

    无需重新嵌入任何文档,只需更换查询端的模型。

    对搜索架构的启示


    非对称检索的流行,标志着向量搜索正在从"技术验证"走向"成本优化"阶段。

    1. 成本意识成为架构设计的一等公民


    早期的向量搜索只关注准确率和延迟,现在成本成为同等重要的指标。非对称检索是在质量、延迟、成本三者之间的优雅平衡。

    2. 模型即基础设施


    voyage-4-nano 运行在 Vespa 容器内,意味着嵌入模型成为基础设施的一部分,而不是外部依赖。这对运维和成本控制都是重大利好。

    3. 多租户场景的天然适配


    在多租户系统中,可以为不同租户配置不同的文档嵌入策略:

  • 付费用户:voyage-4-large 文档嵌入
  • 免费用户:voyage-4-lite 文档嵌入

    所有租户共享相同的查询路径,但获得不同的检索质量。

    局限与适用场景


    非对称检索并非万能:

  • 需要共享向量空间:只有同一模型家族的模型才能非对称组合
  • 查询质量上限:小模型的查询表示能力有上限,极端复杂查询可能不如大模型
  • 自托管成本:虽然省了 API 费用,但需要在容器内运行模型,增加了计算资源需求

    最适合的场景:
  • 高 QPS、查询成本敏感的应用
  • 对延迟要求严格的实时搜索
  • 希望减少外部依赖、提高可用性的系统

    ---

    在 AI 搜索的成本优化之路上,非对称检索提供了一个新思路:不是降低质量来省钱,而是把计算移到更合适的地方。

    当文档嵌入用最强模型、查询嵌入用本地轻量模型成为标配,向量搜索的经济学将被彻底改写。

    ---

    来源: [Vespa Blog](https://blog.vespa.ai/asymmetr ... -free/) (March 10, 2026)
    相关: [Voyage AI voyage-4 发布](https://blog.voyageai.com/2026/01/15/voyage-4/)
    技术要点: 非对称检索、成本优化、向量搜索、模型蒸馏